## [1] 1599 13
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
## density pH sulphates alcohol
## Min. :0.9901 Min. :2.740 Min. :0.3300 Min. : 8.40
## 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50
## Median :0.9968 Median :3.310 Median :0.6200 Median :10.20
## Mean :0.9967 Mean :3.311 Mean :0.6581 Mean :10.42
## 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10
## Max. :1.0037 Max. :4.010 Max. :2.0000 Max. :14.90
## quality
## Min. :3.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.636
## 3rd Qu.:6.000
## Max. :8.000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
##
## 3 4 5 6 7 8
## 10 53 681 638 199 18
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
##
## 4.6 4.7 4.9 5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6 6.1
## 1 1 1 6 4 6 4 5 1 14 2 4 9 13 16
## 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7 7.1 7.2 7.3 7.4 7.5 7.6
## 20 14 25 17 37 28 46 38 50 57 67 44 44 52 46
## 7.7 7.8 7.9 8 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1
## 49 53 42 42 26 45 40 26 19 27 24 34 33 26 29
## 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10 10.1 10.2 10.3 10.4 10.5 10.6
## 16 22 17 14 17 9 15 26 23 10 19 11 21 12 14
## 10.7 10.8 10.9 11 11.1 11.2 11.3 11.4 11.5 11.6 11.7 11.8 11.9 12 12.1
## 10 10 8 3 9 5 7 5 13 12 3 3 12 7 1
## 12.2 12.3 12.4 12.5 12.6 12.7 12.8 12.9 13 13.2 13.3 13.4 13.5 13.7 13.8
## 4 5 4 7 4 4 5 2 3 3 3 1 1 2 1
## 14 14.3 15 15.5 15.6 15.9
## 1 1 2 2 2 1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
##
## 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11 0.12 0.13 0.14
## 132 33 50 30 29 20 24 22 33 30 35 15 27 18 21
## 0.15 0.16 0.17 0.18 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29
## 19 9 16 22 21 25 33 27 25 51 27 38 20 19 21
## 0.3 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4 0.41 0.42 0.43 0.44
## 30 30 32 25 24 13 20 19 14 28 29 16 29 15 23
## 0.45 0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59
## 22 19 18 23 68 20 13 17 14 13 12 8 9 9 8
## 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.7 0.71 0.72 0.73 0.74
## 9 2 1 10 9 7 14 2 11 4 2 1 1 3 4
## 0.75 0.76 0.78 0.79 1
## 1 3 1 1 1
##
## 1 2 3 4 5 5.5 6 7 8 9 10 11 12 13 14
## 3 1 49 41 104 1 138 71 56 62 79 59 75 57 50
## 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
## 78 61 60 46 39 30 41 22 32 34 24 32 29 23 23
## 30 31 32 33 34 35 36 37 37.5 38 39 40 40.5 41 42
## 16 20 22 11 18 15 11 3 2 9 5 6 1 7 3
## 43 45 46 47 48 50 51 52 53 54 55 57 66 68 72
## 3 3 1 1 4 2 4 3 1 1 2 1 1 2 1
##
## 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
## 3 4 14 14 27 26 29 28 33 35 26 27 35 29 33
## 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
## 25 25 34 36 27 24 30 43 20 14 32 20 17 20 26
## 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
## 12 26 31 16 17 14 26 18 23 20 17 24 21 21 11
## 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
## 11 15 14 20 13 10 6 14 9 18 9 9 13 10 17
## 66 67 68 69 70 71 72 73 74 75 76 77 77.5 78 79
## 9 12 10 8 8 7 10 7 8 5 3 8 2 4 5
## 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94
## 4 6 4 2 6 9 10 6 14 9 5 7 8 2 8
## 95 96 98 99 100 101 102 103 104 105 106 108 109 110 111
## 4 5 7 6 3 4 6 2 5 5 6 3 4 6 3
## 112 113 114 115 116 119 120 121 122 124 125 126 127 128 129
## 3 4 2 2 1 7 2 4 3 3 2 1 2 2 3
## 130 131 133 134 135 136 139 140 141 142 143 144 145 147 148
## 1 3 3 2 2 2 1 1 3 1 2 3 3 3 2
## 149 151 152 153 155 160 165 278 289
## 1 2 1 1 1 1 1 1 1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
##
## 8.4 8.5 8.7 8.8
## 2 1 2 2
## 9 9.05 9.1 9.2
## 30 1 23 72
## 9.23333333333333 9.25 9.3 9.4
## 1 1 59 103
## 9.5 9.55 9.56666666666667 9.6
## 139 2 1 59
## 9.7 9.8 9.9 9.95
## 54 78 49 1
## 10 10.0333333333333 10.1 10.2
## 67 2 47 46
## 10.3 10.4 10.5 10.55
## 33 41 67 2
## 10.6 10.7 10.75 10.8
## 28 27 1 42
## 10.9 11 11.0666666666667 11.1
## 49 59 1 27
## 11.2 11.3 11.4 11.5
## 36 32 32 30
## 11.6 11.7 11.8 11.9
## 15 23 29 20
## 11.95 12 12.1 12.2
## 1 21 13 12
## 12.3 12.4 12.5 12.6
## 12 13 21 6
## 12.7 12.8 12.9 13
## 9 17 9 6
## 13.1 13.2 13.3 13.4
## 2 1 3 3
## 13.5 13.5666666666667 13.6 14
## 1 1 4 7
## 14.9
## 1
##
## Pearson's product-moment correlation
##
## data: wineQualityReds$citric.acid and wineQualityReds$fixed.acidity
## t = 36.234, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6438839 0.6977493
## sample estimates:
## cor
## 0.6717034
##
## Pearson's product-moment correlation
##
## data: wineQualityReds$citric.acid and wineQualityReds$volatile.acidity
## t = -26.489, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.5856550 -0.5174902
## sample estimates:
## cor
## -0.5524957
##
## Pearson's product-moment correlation
##
## data: wineQualityReds$total.sulfur.dioxide and wineQualityReds$free.sulfur.dioxide
## t = 35.84, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6395786 0.6939740
## sample estimates:
## cor
## 0.6676665
我感兴趣的变量是红酒的质量。通过分析红酒质量和这些强相关性变量之间的关系,我观察到和红酒质量呈比较明显的正相关关系的理化性质有柠檬酸、硫酸盐,酒精含量,和红酒质量呈比较明显的负相关关系的理化性质有挥发性酸度。并且这些理化性质都对红酒的质量的影响都是必要非充分的,比如,红酒质量越高,其柠檬酸集中分布在含量更高的地方,但是柠檬酸的含量高并无法保证酒精质量就一定高,柠檬酸是必要非充分因素。这也说明红酒质量是多个理化性质共同作用的结果。
关于其他特征(不是感兴趣的主要特征)之间的关系,我也探索了分析理化性质之间的一些强相互关系,有如下的观察结果,柠檬酸和固定酸度呈现明显的正相关关系。柠檬酸和挥发酸度呈现明显的负相关关系。柠檬酸是非挥发性酸。游离二氧化硫和总二氧化硫之间呈明显的正相关关系。
主要特征和其他理化性质特征的关系中,我发现的最强的关系是酒精含量和红酒质量,呈最明显的正相关关系。非主要特征的关系中,我发现的最强的关系是柠檬酸和固定酸度呈现最明显的正相关关系。
##
## Calls:
## m1: lm(formula = I(quality) ~ I(alcohol), data = wineQualityReds)
## m2: lm(formula = I(quality) ~ I(alcohol) + I(sulphates), data = wineQualityReds)
## m3: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid),
## data = wineQualityReds)
## m4: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) +
## I(volatile.acidity), data = wineQualityReds)
## m5: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) +
## I(volatile.acidity) + I(fixed.acidity), data = wineQualityReds)
## m6: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) +
## I(volatile.acidity) + I(fixed.acidity) + I(chlorides), data = wineQualityReds)
## m7: lm(formula = I(quality) ~ I(alcohol) + I(sulphates) + I(citric.acid) +
## I(volatile.acidity) + I(fixed.acidity) + I(chlorides) + I(total.sulfur.dioxide),
## data = wineQualityReds)
##
## =============================================================================================================================
## m1 m2 m3 m4 m5 m6 m7
## -----------------------------------------------------------------------------------------------------------------------------
## (Intercept) 1.875*** 1.375*** 1.434*** 2.646*** 2.202*** 2.363*** 2.652***
## (0.175) (0.177) (0.176) (0.201) (0.224) (0.228) (0.240)
## I(alcohol) 0.361*** 0.346*** 0.338*** 0.309*** 0.320*** 0.304*** 0.288***
## (0.017) (0.016) (0.016) (0.016) (0.016) (0.017) (0.017)
## I(sulphates) 0.994*** 0.814*** 0.696*** 0.701*** 0.851*** 0.888***
## (0.102) (0.107) (0.103) (0.103) (0.111) (0.111)
## I(citric.acid) 0.513*** -0.079 -0.469*** -0.335* -0.203
## (0.093) (0.104) (0.137) (0.141) (0.145)
## I(volatile.acidity) -1.265*** -1.343*** -1.239*** -1.173***
## (0.113) (0.113) (0.117) (0.118)
## I(fixed.acidity) 0.057*** 0.050*** 0.037**
## (0.013) (0.013) (0.014)
## I(chlorides) -1.430*** -1.576***
## (0.408) (0.408)
## I(total.sulfur.dioxide) -0.002***
## (0.001)
## -----------------------------------------------------------------------------------------------------------------------------
## R-squared 0.227 0.270 0.284 0.336 0.344 0.349 0.355
## adj. R-squared 0.226 0.269 0.282 0.334 0.342 0.347 0.352
## sigma 0.710 0.690 0.684 0.659 0.655 0.653 0.650
## F 468.267 294.988 210.501 201.777 167.023 142.224 124.875
## p 0.000 0.000 0.000 0.000 0.000 0.000 0.000
## Log-likelihood -1721.057 -1675.142 -1659.955 -1599.093 -1589.648 -1583.493 -1576.550
## Deviance 805.870 760.894 746.576 691.852 683.728 678.484 672.617
## AIC 3448.114 3358.284 3329.910 3210.186 3193.297 3182.986 3171.100
## BIC 3464.245 3379.793 3356.795 3242.448 3230.937 3226.003 3219.494
## N 1599 1599 1599 1599 1599 1599 1599
## =============================================================================================================================
酒精含量和柠檬酸,硫酸盐,三者有相互加强功能。
酒精含量对红酒质量起到决定性作用,柠檬酸,硫酸盐,挥发性酸度一定时,酒精含量提高,红酒质量明显提高。酒精含量较低时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量基本不变。酒精含量较高时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量有明显提升。
我使用酒精,硫酸盐,柠檬酸,挥发性酸度,固定酸度,氯化物,总二氧化硫为红酒质量建立了线性模型,此模型的优点是,综合考虑了多方面因素对红酒质量的影响,提供了特征(变量)与结果之间关系的强度和大小的估计。如果我们知道一种红酒对应的上述的理化性质,可以用来预测该种红酒的质量。此模型的缺点是,对数据做出了很强的假设,该模型的形式必须由使用者事先指定,不能很好地处理缺失数据,易受异常数据的干扰,需要一些统计知识来理解模型。而且,我们也看到,从柠檬酸在m3的线性模型中系数为正,而增加了挥发性酸度等其他变量后柠檬酸在线性模型中的系数变为负,柠檬酸和红酒质量的关系的转变,也是和原来的分析存在一定差距的。多变量之间的相互影响也比较难从此模型中得到理解。
双变量分析阶段,我一开始就先用ggpairs绘制散点图矩阵,并针对相关系数比较大的变量进行进一步的分析,对分类变量(质量)和理化性质变量(柠檬酸、硫酸盐,酒精含量)之间进行分析时,我采用了箱线图,并在箱线图基础上叠加了设置了抖动和透明度的散点图,并绘制了平滑直线,这一步令我对探究红酒质量和理化性质变量之间的关系进展顺利,通过箱线图,我观察到和红酒质量呈比较明显的正相关关系的理化性质有柠檬酸、硫酸盐,酒精含量,和红酒质量呈比较明显的负相关关系的理化性质有挥发性酸度。除了分析酒精质量和这些强相关性变量之间的关系,我还分析了理化性质之间的一些强相互关系。柠檬酸和固定酸度呈现明显的正相关关系。柠檬酸和挥发酸度呈现明显的负相关关系。柠檬酸是非挥发性酸。游离二氧化硫和总二氧化硫之间呈明显的正相关关系。
多变量分析阶段,我将我分析的重点放在红酒质量有强相关关系的理化性质变量之间是否对红酒质量的影响有相互加强的作用。发现了酒精含量对红酒质量起到决定性作用,柠檬酸,硫酸盐,挥发性酸度一定时,酒精含量提高,红酒质量明显提高。酒精含量较低时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量基本不变。酒精含量较高时,提高柠檬酸或者硫酸盐含量,或者降低挥发性酸度,红酒的质量有明显提升。并且,我我使用酒精,硫酸盐,柠檬酸,挥发性酸度,固定酸度,氯化物,总二氧化硫为红酒质量建立了线性模型,可用于分析各预测红酒质量。
在将来的工作中,我将进一步探究理化性质变量之间是否对红酒质量的影响有相互加强的作用,我希望可以一次性对更多变量之间进行探究,比如,我将探究每个质量等级的柠檬酸,硫酸盐,挥发性酸度三者的分布,这样能更好分析理化性质对红酒质量的影响。